Боты большинства поисковых систем перед началом считывания информации с Вашего ресурса в обязательном порядке обращаются к файлу robots.txt для определения, какие файлы можно индексировать, а какие нет. Файл размещается в корневой директории вашего ресурса, и путь к нему будет выглядеть следующим образом: http://musite.com/robots.txt . Имя файла обязательно пишется в нижнем регистре. Отсутствующий или пустой файл robots.txt означает, что к индексации допущено все.
В файл прописываются строки с названием клиентского приложения - User-agent и одной или нескольких строк, начинающихся с директивы Disallow. Для запрета индексации файлов и папок, указанных в Disallow всеми ботами, в строке User-agent подставляется символ «*». Для запрета индексации только одной или нескольким поисковым система указываем нужных ботов. Вот наиболее распространенные, Вы их можете обнаружить у себя в логах. Если при запросе файл был найден и прочитан то, будет выдаваться сообщение со статусом 200, если нет то 404 или 302.
Бот Google – «Googlebot»
Бот Яндекса - «Yandex»
Бот Рамблера - «StackRambler»
Бот Yahoo! - «Yahoo! Slurp»
Бот MSN - «msnbot»
С полным перечнем известных ботов можно ознакомиться здесь: http://www.robotstxt.org/wc/active/html/type.html
Пример 1:
User-agent: *
Disallow: /
Индексация сайта запрещена всем ботам.
Пример 2:
User-agent: *
Disallow:
Всем ботам разрешено полностью индексировать сайт.
Пример 3:
User-agent: *
Disallow: /cgi-bin/
Всем ботам запрещена индексация каталога «cgi-bin».
Пример 4:
User-agent: *
Disallow: /cgi-bin/
User-Agent: Googlebot
Disallow: /download/
User-Agent: Yandex
Disallow: /images/
Всем ботам запрещена индексация каталога «cgi-bin». Боту Google запрещена индексация каталога «download». Боту Yandex запрещена индексация каталога «images».
Пример 5:
User-agent: *
Disallow: /cgi-bin/
Disallow: /katalog/search.php
Всем ботам запрещена индексация каталога «cgi-bin» и файла «search.php» в каталоге «katalog».
Для запрета индексации динамических страниц можно применить следующее:
Пример 6:
User-agent: *
Disallow: /index.php?action=print
Страницы для печати, например /index.php?action=print&id;=5 будут закрыты для индексации, страницы для просмотра, например /index.php?action=view&id;=5 будут доступны. Закрытие таким образом динамических страниц от индексации может оказаться очень полезным при администрировании ресурсов с возможность размещения сообщений без авторизации, поскольку подавляющее большинство желающих автоматически размещать свои сообщения на большом числе ресурсов ( спам ), поиск производят именно через поисковые системы.
Некоторые боты поддерживают директиву Crawl-delay, определяющей время в секундах между успешными запросами документов.
Пример 7:
User-agent: Slurp
Crawl-delay: 5
Disallow: /cgi-bin/
User-agent: *
Disallow: /cgi-bin/
Боту, поддерживающему эту директиву, дано ограничение между запросами не менее 5 секунд. Используется для ограничение числа обращений к ресурсу за период времени, во избежание чрезмерной нагрузки при считывании информации.
Многие вебмастера для обеспечения надежного доступа к ресурсу создают «зеркала» сайта. Бот поисковой системы Yandex учитывает содержимое директивы «Host» для определения основного зеркала.
Пример 8:
User-agent: Yandex
Disallow: /cgi-bin/
Host: www.musite.com
User-agent: *
Disallow: /cgi-bin/
В данном примере основным зеркалом будет являться www.musite.com а не musite.com.
Есть поисковые системы, которые позволяют использование регулярных выражений. Google например, который производит поиск по изображениям, документам формата PDF и т.д., в директиве Disallow поддерживает символы «*» (любая последовательность символов) и «$» (формат документа). Это позволяет запретить индексирование документов определенного формата.
Пример 9:
User-agent: Googlebot
Disallow: *.pdf$
Запрещена индексация документов формата .pdf
Проверить корректность работы файла можно например здесь: http://www.yandex.ru/cgi-bin/test-robots
Поделиться записью